Métodos de remuestreo
13 de diciembre de 2024
Hemos aprendido métodos de regresión y clasificación que nos permiten predecir información.
¿Cómo los testeamos?
Buscamos remuestrear con los datos que ya tenemos.
Error de prueba: Error promedio al usar un método de aprendizaje estadístico para predecir la respuesta a una observación, que no estaba en los datos de entrenamiento.Error de entrenamiento: Error al testear el modelo con los datos de entrenamiento.conjunto de entrenamiento y un conjunto de validación.\[CV_{(n)} = \dfrac1n\sum\limits_{i=1}^nMSE_i.\]
Es más “costoso”, puesto que se tiene que ajustar \(n\) veces el modelo.
En regresión lineal o polinomial se tiene que
\[CV_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^n\left(\frac{y_i-\hat{y}_i}{1-h_i}\right)^2.\]
Método ampliamente utilizado.
Se dividen los datos en \(k\) conjuntos del mismo tamaño \(\frac{n_k}{k}\).
Se obtienen \(k\) errores cuadráticos medios \(MSE_i = \sum\limits_{j\in C_i}\frac{(y_j-\hat{y}_j)^2}{n_i}\) calculados cuando el subconjunto \(i\) es usado para pruebas. \[CV_{(k)} = \sum\limits_{i=1}^k\frac{n_i}{n}MSE_i.\]
En la práctica \(k=5\) o \(k=10\).
conjunto de datos de bootstrap se crea sampleando con reemplazo y es del mismo tamaño que el conjunto de datos original.\[SE_B(\hat{\alpha}) = \sqrt{\dfrac{1}{B-1}\sum\limits_{i=1}^B(\hat{\alpha}^{\star i} - \bar{\hat{\alpha}}^\star)^2}\]